Universidad Pontificia Comillas. Madrid (Spain)
October 29th, 1999
Original summary:
Tradicionalmente la Ciencia y la Ingeniería han utilizado modelos basados en principios fundamentales. Por ejemplo, la mayoría de las aplicaciones en ingeniería eléctrica se basan en modelos derivados de la teoria del electromagnetismo de Maxwell. Estos modelos se validan utilizando medidas apropiadas (datos) y técnicas clásicas de identificacón de sistemas. Además, dichas técnicas permiten estimar algunos parámetros del modelo que son difíciles de medir directamente. Sin embargo, en muchas aplicaciones reales los principios fundamentales subyacentes son desconocidos o el sistema a modelar es tan complejo que resulta intratable. Por otro lado, cada vez hay más datos disponibles, recogidos directamente del sistema o generados mediante simulación por ordenador. En estas circustancias, el aprendizaje a partir de ejemplos (AAE) puede utilizarse para obtener modelos efectivos. El AAE constituye un campo de investigación multidisciplinar que proporciona métodos para extraer información de alto nivel a partir de datos de nivel bajo.
El trabajo descrito en esta tesis tiene que ver principalmente con la aplicación del AAE al análisis de datos. El término análisis de datos (data mining, en inglés), se utiliza para indicar la extracción, a partir de bases de datos, de información desconocida previamente, potencialmente útil y, en última instancia, comprensible. Para alcanzar dicho objetivo se ha proporcionado un esquema general que permite enmarcar la gran explosión de modelos basados en técnicas de AAE. Siguiendo dicho esquema, se han presentado de forma consistente un subconjunto representativo de modelos ya existentes, propuestos en campos tan dispares como la inteligencia artificial, la informática o la estadística. Además, se han tratado en detalle problemas genéricos como el dilema entre el sesgo y la varianza (the bias-variance tradeoff, en inglés). Como resultado del análisis de las prácticas actuales y de los modelos existentes en AAE, se ha desarrollado un nuevo modelo unidimensional (una sola entrada y una salida), denominado modelo Bisagras. También se han desarrollado dos extensiones multidimensionales de éste (varias entradas y salidas), denominados modelo ORTHO y OBLIQUE.
El modelo Bisagras combina un modelo no paramétrico, (utilizado para producir una primera aproximación del ruido en los datos) con modelos poligonales a trozos, (bisagras), utilizados para conseguir una aproximación final compacta y sencilla de la curva subyacente. Como resultado, se ha desarrollado un algoritmo de aprendizaje muy eficiente, capaz de producir modelos útiles. Además, se han considerado bisagras lineales y cúbicas a trozos, dando lugar al llamado modelo de Bisagras Lineales y al modelo de Bisagras Suaves, respectivamente. El modelo multidimensional ORTHO es un simple modelo aditivo cuyas principales virtudes son su interpretabilidad junto con su eficiencia. Por tanto, los modelos ORTHO se pueden utilizar interactivamente mediante prueba y error, permitiendo descubrir información interesante contenida en la base de datos, así como adquirir un mayor conocimiento sobre la física del sistema. El modelo OBLIQUE es un modelo más sofisticado capaz de proporcionar unos resultados más precisos. Esta mejora en precisión supone principalmente un aumento del tiempo de CPU durante la etapa de aprendizaje. Ambos modelos pueden ser considerados como métodos de análisis de datos apropiados para problemas de dimensión real, gracias a su interpretabilidad y capacidad para identificar las variables de entrada que más influyen en la salida.
Los modelos propuestos en esta tesis han sido aplicados con éxito tanto en problemas artificiales como en problemas reales. Los primeros se han utilizado para valorar fielmente los resultados obtenidos con los modelos propuestos, mientras que los segundos han permitido evaluar su utilidad práctica. En concreto, los casos de estudio se situan en el ámbito del análisis de seguridad de los sistemas eléctricos de potencia. Se ha modelado correctamente la severidad de tres contingencias diferentes. Además, dichos modelos son físicamente razonables e interpretables.
English summary:
Automatic learning is a (highly multi-disciplinary) research field providing methods to extract high level synthetic information (i.e. models) from low level data.
Traditionally Science and Engineering have been based on using models derived from first principles. For example, most techniques used in electrical engineering use models derived from Maxwell's equations. These models are verified using both appropriate measurements (data) and classical system identification techniques. However, in many real world applications the underlying first principles are unknown or the system to be modeled is so complex that this approach is intractable. On the other hand, today more and more data have become available, collected directly from such systems or generated through computer-based simulation. In such circumstances, automatic learning can be used to derive effective models.
The work described in this thesis concerns the application of automatic learning to data analysis (in other words, to extract previously unknown, potentially useful, and ultimately comprehensible information from data sets). This work has been carried out by first providing a general framework to reformulate a broad and apparently diverse collection of automatic learning models, most of which have been proposed in the recent years. Thanks to this framework, we have been able to present in a consistent way a representative subset of existing models proposed in different fields like artificial intelligence, computer science or statistics. This allowed us to highlight significant differences while masking the irrelevant ones, so as to gain a deeper understanding. The generic problems encountered in automatic learning, like the bias-variance tradeoff, could also be discussed from this perspective. In a second step, we have developed a novel one-dimensional model (one-input one-output), called the Hinges model. Then, we have developed two multidimensional (multiple inputs multiple outputs) extensions of it, called ORTHO and OBLIQUE models.
The one-dimensional Hinges model combines a nonparametric model (a so-called scatterplot-smoother, used to provide a first approximation of the noise in the data) with piecewise polynomial models (i.e. hinges, used to provide a closed form approximation of the underlying data). This combination turns out as a computationally very efficient learning algorithm able to produce useful models. Both piecewise linear and piecewise cubic hinges have been considered in this context, giving rise to the Linear Hinges and the Smoothed Hinges, respectively. The multidimensional ORTHO model is a simple additive model whose main strengths are its interpretability together with its computational efficiency. Thus, ORTHO models can be used in an interactive trial and error fashion, so as to discover interesting information contained in a data base and gain physical insight into a problem. The OBLIQUE model is a full projection pursuit model able to provide even more accurate results. The main price to pay for this improvement is an increase in CPU time at the learning stage, and also a certain reduction of interpretability. The complementary nature of the two models, allows one to use them together in a tool-box fashion for data mining in the context of real problems, offering interpretability, capability to identify the input variables that influence most strongly the output, and modeling flexibility.
We have applied these methods both to synthetic and real-life problems. We used the synthetic problems as a workbench to understand, improve and assess performances. The real-life problems have allowed us to evaluate how useful the proposed models are in practice, in particular in power system security assessment, where we could use our own physical understanding to verify that the obtained models are indeed physically sound and interpretable.
Citation:
E.F. Sánchez-Úbeda (1999), Modelos para el análisis de datos: Contribuciones al aprendizaje a partir de ejemplos. Universidad Pontificia Comillas. Madrid (Spain).